Evaluieren

Wie gut und stabil ist mein Model?

  • Performance Messen
  • Test auf unbekannten Daten
  • Robust gegen Änderungen
  • Vergleich mit Mensch?

Performance Messen

  • Kosten vs Accuracy
    • Kosten: Training, nicht interpretierbar
    • Accuracy: verständliches Mass der Leistung

Performance Messen

  • Kosten vs Accuracy
    • Kosten: Training, nicht interpretierbar
    • Accuracy: verständliches Mass der Leistung
  • Klassifizierung:
    • Accuracy
    • Precision & Recall

Performance Messen

  • Kosten vs Accuracy
    • Kosten: Training, nicht interpretierbar
    • Accuracy: verständliches Mass der Leistung
  • Klassifizierung:
    • Accuracy (Binäres label & Balancierte Daten)
    • Precision & Recall (Reinheit & Vollständigkeit)
    • Confusion Matrix (Interpretation)
    • F1 Score (vereint Precision & Recall)

Mehr dazu hier und hier

Performance Messen

  • Kosten vs Accuracy
    • Kosten: Training, nicht interpretierbar
    • Accuracy: verständliches Mass der Leistung
  • Klassifizierung:
    • Accuracy (Binäres label & Balancierte Daten)
    • Precision & Recall (Reinheit & Vollständigkeit)
    • Confusion Matrix (Interpretation)
    • F1 Score (vereint Precision & Recall)
from sklearn.metrics import confusion_matrix, f1_score
conf_mat = confusion_matrix(all_labels, all_preds)
f1 = f1_score(all_labels, all_preds, average='macro')

Unbekannte Daten

  • Train-Test Split
  • Training mit Train, Evaluation mit Test
  • Verfolge bei Training:
    für train & test je loss & accuracy

Robust

  • Training an verschiedenen Punkten starten

Robust

  • Training an verschiedenen Punkten starten
  • k-fold cross-validation (mehr dazu)

Vergleich mit Mensch

ImageNet Klassifikation

Vergleich mit Mensch

ImageNet Klassifikation

Vergleich mit Mensch

ImageNet Klassifikation

Evaluieren

Hands-On: MNIST Classifier

Bearbeiten Sie dieses Notebook

 

  • Berechnen Sie die Konfusionsmatrix sowie den F1 score
    auf einem beliebigen Datensatz
     
  • Berechnen Sie diese explizit für ein untrainiertes Modell
    auf dem Testdatensatz

 

Die Lösung finden Sie in diesem Notebook